HOME/Articles/

2017-9-7 机器学习路线

Article Outline

准备知识:

编程语言:Python,C++,Spark(大数据环境下); 知识储备:英语、线性代数、概率论、图论、神经科学。

<!--more-->

第一步 统领大局:

建立大局观,是入门第一要务; 从宏观了解机器学习的全貌; 机器学习:根据已有特征,选择模型,训练模型,预测未知数据; 推荐书籍: -《图解机器学习》:通俗易懂,算法图解,入门必备; -《集体智慧编程》:代码实现,一个字“敲”; -《机器学习(周志华西瓜书)》:系统严谨,数学推导;

第二步 了解算法:

看遍所有算法原理,主要书籍:《机器学习(周志华)》; coursera 上Andrew NG的机器学习公开课,网易云也开了; 邹博的《机器学习实战》; 李沐《一起动手学习深度学习》; 必学:线性回归,Logistics回归,决策树。

第三步 利用框架:

利用scikit-learn实现所学的算法(推荐鸢尾花分类、MNIST分类)

第四步 神经网络:

看懂Tensorflow官网demo:RNN、CNN、GAN; 莫凡Tensorflow

第五步 实操演练:

注册kangle,奋斗吧! 上线一个小模型(django+scikit-learn)

第六步 关注落地:

机器学习MVP开发; 针对小规模,有质量、已标注的数据进行训练; 明确需求、特征量化、目标量化、特征清洗、模型选型、模型训练、线下验证、模型上线、特征清洗、模型预测、结果应用、运行监控;

实例一:客户动用率预测:

明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是动用率预测;
特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否动用等;
目标量化:选择是否动用为目标;
特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据;
模型选择:直接丢个逻辑回归试试看;
模型训练:看训练集和测试集,讨论出一个精准度即可;
模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。

实例二:客户逾期率预测:

明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是逾期率预测;
特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否逾期等;
目标量化:选择客户是否逾期作为目标;
特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据;
模型选择:直接丢个softmax回归试试看;
模型训练:看训练集和测试集,讨论出一个精准度即可;
模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。

实例三:客户风险级别预测:

明确需求:与业务同事讨论本次需求的目标是什么,这里说的就是风险级别预测;
特征量化:选出可能有影响的特征,如:年龄,性别,近三个月是否逾期等;
目标量化:选择预期风险等级作为目标;
特征清洗:样本筛选,缺失值补全,利用先验知识去掉明显不符合常理的数据;
模型选择:直接丢个决策树试试看;
模型训练:看训练集和测试集,讨论出一个精准度即可;
模型上线:丢上线去跑跑看,看看结果,暂时不接入关键流程即可。

第七步 补充数学:

《概率论与数理统计》陈希孺 《线性代数应该这样学》

第八步 特征工程:

好的特征决是成功的一半; 特征选择,特征清洗,决定模型的上限,算法和优化只是不断趋近这个上限; 特征工程非常重要。

第九步 深入前沿:

深入了解前沿的底层原理 阅读实践优秀论文,如:MapReduce原理的,李沐Parameter原理的,GAN原理的,LPA原理的……

书单:

《深入浅出统计学》 《深入浅出数据分析》 《大数据智能》 《深度学习》 《优雅的理性》 《创新者的窘境》 《数学之美》